田渊栋离职Meta,最后一篇论文?
离职meta后,田渊栋团队最新论文放出了。他们提出的「三门理论」发现,RLVR微调只在小权重里发力,性能提升的同时又不破坏模型结构。
离职meta后,田渊栋团队最新论文放出了。他们提出的「三门理论」发现,RLVR微调只在小权重里发力,性能提升的同时又不破坏模型结构。
核心发现: 单阶段训练 + 固定超参数 = SOTA 性能 + 省一半算力意外之喜: 训练曲线平滑得像教科书,4000 步没遇到任何 "典型问题"关键启示: 充分 scale 的简单 baseline,可能比我们想象的强大得多
一个仅有15亿参数、训练成本不足8000美元的小模型,在顶级数学竞赛基准上击败了参数量是其数百倍的,近万亿参数的DeepSeek-R1(6710亿参数)。甚至媲美Gemini 2.5 flash和claude Opus 4。
今日aespa成员Winter在首尔为RL“假日体验”开幕派对拍摄宣传照,一身撞色拼接格纹+长裤+复古绿色包包,G社生图直接变站姐,怼脸拍也美到令人惊叹!不得不夸,冬妹的皮肤状态也太好了,是白里透粉的小公举呀!
在人工智能技术快速演进的浪潮中,大模型正从数据匹配迈向具备逻辑推理的“深度思考”阶段。这一能力让AI能够理解复杂问题,完成多步推理,并在数学、代码等多个领域展现巨大潜能。日前,潞晨科技携手昇腾团队,联合推出强化微调技术的昇腾优化方案,为深度思考模型的落地注入强
当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑
我们可以让标准的、非前沿的大型语言模型(LLM)比前沿模型,也就是所谓的“推理模型”更好,而无需任何额外的训练。这是否意味着过去一年的所有进展……都是多余的?
然而两种主流后训练模式都各有致命缺陷:SFT和蒸馏虽然简单可并行,但这种填鸭式教育让模型在完美数据中变得僵化,无法应对自己犯错时的未知局面;RL赋予了模型探索能力,但稀疏奖励导致的大规模试错让成本激增。
现阶段,昇腾CANN致力于协助开发者基于NPU构建更高效的大模型强化学习训练平台,全面赋能强化学习场景深度训推优化。目前,昇腾CANN已经支持对接开源RL训练框架verl,能够适配GRPO、DAPO、PPO等多种RL训练算法。为充分释放verl在昇腾NPU集群
模型 deepseek rl deepseekr1 rl训练 2025-10-30 09:34 2
想象一下,你正站在喧闹的都市街头,一架无人机从天而降,精准地将包裹稳稳落在你手中的平台上。它没有GPS的粗糙指引,也没有预设的飞行路径,只是凭借“试错”的本能,学会了如何在风中保持平衡、如何判断高度、如何避免一头栽进水泥地。这不是科幻电影的桥段,而是深度强化学
这消息来自 Thinking Machines Lab(简称 TML)的一篇新博客,作者是 Kevin Lu。文章讲的是把“在策略蒸馏”(on-policy distillation)真正放到训练里去做,并把实验和代码都开源了。TML 的 CEO Mira M
近日,谷歌 DeepMind 团队在 Nature 上发表的一篇论文探索了这一可能性。并且,他们得到了非常积极的结果:机器确实能够自主发现性能达到 SOTA 的强化学习规则,并且其表现优于人工设计的规则。
根据Mira Murati的提炼,原来他们提出了一种让小模型更懂专业领域的LLM(大语言模型)后训练方法——On-Policy Distillation (在线策略蒸馏)。
machine rl thinkingmachine thi 2025-10-28 10:13 2
根据Mira Murati的提炼,原来他们提出了一种让小模型更懂专业领域的LLM(大语言模型)后训练方法——On-Policy Distillation (在线策略蒸馏)。
machine rl thinkingmachine thi 2025-10-28 09:26 1
Meta 首席技术官Andrew Bosworth周一在一份内部备忘录中告诉员工,领导其虚拟世界产品Meta Horizon的 Gabriel Aul和负责Meta 虚拟现实硬件的Ryan Cairns现在将领导公司的元宇宙业务。
人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现。
人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现。
在机器人与智能体领域,一个老大难问题是:当你让机器人 “把黄碗放进白色空篮子” 或 “从微波炉里把牛奶取出来放到餐桌上” 时,它不仅要看懂环境,更要解释指令、规划路径 / 可操作区域,并把这些推理落实为准确的动作。目前,很多 VLA(Vision-Langua
年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。
学习 api optimization rl grpo 2025-10-22 18:22 2
UC Berkeley、UW、AI2 等机构联合团队最新工作提出:在恰当的训练范式下,强化学习(RL)不仅能「打磨」已有能力,更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA,并观察到从「零奖励」到接近100%突破式跃迁的